建立公平的推荐系统是一个具有挑战性且至关重要的研究领域,因为它对社会产生了巨大影响。我们将两个普遍公认的公平概念的定义扩展到了推荐系统,即机会平等和均衡的赔率。这些公平措施确保同样对待“合格”(或“不合格”)候选人,无论其受保护的属性状况如何(例如性别或种族)。我们提出了可扩展的方法,以实现机会平等和在存在位置偏见的情况下排名均等的几率,这通常会困扰推荐系统产生的数据。我们的算法是模型不可知论,因为它们仅依赖于模型提供的最终分数,因此很容易适用于几乎所有Web尺度推荐系统。我们进行广泛的模拟以及现实世界实验,以显示我们方法的功效。
translated by 谷歌翻译
Virtual Product placement(VPP) is the advertising technique of digitally placing a branded object into the scene of a movie or TV show. This type of advertising provides the ability for brands to reach consumers without interrupting the viewing experience with a commercial break, as the products are seen in the background or as props. Despite this being a billion-dollar industry, ad rendering technique is currently executed at post production stage, manually either with the help of VFx artists or through semi-automated solutions. In this paper, we demonstrate a fully automated framework to digitally place 2-D ads in linear TV cooking shows captured using single-view camera with small camera movements. Without access to full video or production camera configuration, this framework performs the following tasks (i) identifying empty space for 2-D ad placement (ii) kitchen scene understanding (iii) occlusion handling (iv) ambient lighting and (v) ad tracking.
translated by 谷歌翻译
Modern Deep Learning (DL) models have grown to sizes requiring massive clusters of specialized, high-end nodes to train. Designing such clusters to maximize both performance and utilization to amortize their steep cost is a challenging task requiring careful balance of compute, memory, and network resources. Moreover, a plethora of each model's tuning knobs drastically affect the performance, with optimal values often depending on the underlying cluster's characteristics, which necessitates a complex cluster-workload co-design process. To facilitate the design space exploration of such massive DL training clusters, we introduce COMET a holistic cluster design methodology and workflow to jointly study the impact of parallelization strategies and key cluster resource provisioning on the performance of distributed DL training. We develop a step-by-step process to establish a reusable and flexible methodology, and demonstrate its application with a case study of training a Transformer-1T model on a cluster of variable compute, memory, and network resources. Our case study demonstrates COMET's utility in identifying promising architectural optimization directions and guiding system designers in configuring key model and cluster parameters.
translated by 谷歌翻译
PROteolysis TArgeting Chimeras (PROTACs) are an emerging therapeutic modality for degrading a protein of interest (POI) by marking it for degradation by the proteasome. Recent developments in artificial intelligence (AI) suggest that deep generative models can assist with the de novo design of molecules with desired properties, and their application to PROTAC design remains largely unexplored. We show that a graph-based generative model can be used to propose novel PROTAC-like structures from empty graphs. Our model can be guided towards the generation of large molecules (30--140 heavy atoms) predicted to degrade a POI through policy-gradient reinforcement learning (RL). Rewards during RL are applied using a boosted tree surrogate model that predicts a molecule's degradation potential for each POI. Using this approach, we steer the generative model towards compounds with higher likelihoods of predicted degradation activity. Despite being trained on sparse public data, the generative model proposes molecules with substructures found in known degraders. After fine-tuning, predicted activity against a challenging POI increases from 50% to >80% with near-perfect chemical validity for sampled compounds, suggesting this is a promising approach for the optimization of large, PROTAC-like molecules for targeted protein degradation.
translated by 谷歌翻译
单词错误率(WER)是用于评估自动语音识别(ASR)模型质量的主要度量。已经表明,与典型的英语说话者相比,ASR模型的语音障碍者的扬声器往往更高。在如此高的错误率下,很难确定模型是否可以很有用。这项研究调查了BertScore的使用,BertScore是文本生成的评估指标,以提供对ASR模型质量和实用性的更有信息度量。将Bertscore和WER与语言病理学家手动注释以进行错误类型和评估手动注释的预测错误。发现Bertscore与人类的误差类型和评估评估更相关。在保留含义的拼字法变化(收缩和归一化误差)上,Bertscore特别强大。此外,使用顺序逻辑回归和Akaike的信息标准(AIC)测量,Bertscore比WER更好地评估了错误评估。总体而言,我们的发现表明,从实际角度评估ASR模型性能时,Bertscore可以补充,尤其是对于可访问性应用程序,即使模型的精度也比典型语音较低的模型也很有用。
translated by 谷歌翻译
我们为视频中的人类活动识别提供了一种学习算法。我们的方法是为无人机视频而设计的,这些视频主要是从包含人类演员以及背景运动的倾斜放置动态摄像机中获得的。通常,人类参与者占据空间分辨率的十分之一。我们的方法同时利用频域表示的好处,信号处理中的经典分析工具以及数据驱动的神经网络。在对视频中的显着静态和动态像素建模之前,我们构建了一个可区分的静态频率掩码,对于动作识别的基本任务至关重要。在启用神经网络之前,我们可以使用这种可区分的掩码,以通过身份损失函数本质地学习分离的特征表示。我们的公式使网络能够固有地计算其层中的分离显着特征。此外,我们提出了一个封装时间相关性和空间内容的成本功能,以对均匀间隔的视频片段中最重要的框架进行采样。我们在UAV人类数据集和NEC无人机数据集上进行了广泛的实验,并证明比最先进的相对改善为5.72%-13.00%,比相应的基线模型进行了14.28%-38.05%。
translated by 谷歌翻译
我们提出了一种新颖的方法,可以将3D人类动画放入3D场景中,同时保持动画中的任何人类场景相互作用。我们使用计算动画中最重要的网格的概念,以与场景进行交互,我们称之为“键框”。这些关键框架使我们能够更好地优化动画在场景中的位置,从而使动画中的互动(站立,铺设,坐着等)与场景的负担相匹配(例如,站在地板上或躺在床上)。我们将我们称为PAAK的方法与先前的方法进行了比较,包括POSA,Prox地面真理和运动合成方法,并通过感知研究突出了我们方法的好处。人类评估者更喜欢我们的PAAK方法,而不是Prox地面真相数据64.6 \%。此外,在直接比较中,与POSA相比,评估者比竞争方法比包括61.5%的竞争方法更喜欢PAAK。
translated by 谷歌翻译
ML-AS-A-Service继续增长,对非常强大的隐私保证的需求也在继续增长。安全推断已成为潜在的解决方案,其中加密原始图允许推理不向用户向用户揭示用户的输入或模型的权重。例如,模型提供商可以是一家诊断公司,该公司已经培训了一种最先进的Densenet-121模型来解释胸部X射线,并且用户可以在医院成为患者。尽管对于这种环境,确保推理原则上是可行的,但没有现有的技术使其大规模实用。 Cryptflow2框架提供了一种潜在的解决方案,其能力自动,正确地将清晰文本推理转换为安全模型的推断。但是,从Cryptflow2产生的安全推断在不切实际上很昂贵:在Densenet-121上解释单个X射线需要几乎3TB的通信。在本文中,我们解决了针对三项贡献的安全推断效率低下的重大挑战。首先,我们证明安全推理中的主要瓶颈是大型线性层,可以通过选择网络骨干的选择来优化,并使用用于有效的清晰文本推理开发的操作员。这一发现和强调与许多最近的作品偏离,这些作品着重于在执行较小网络的安全推断时优化非线性激活层。其次,基于对瓶颈卷积层的分析,我们设计了一个更有效的倒入替代品的X操作器。第三,我们表明,快速的Winograd卷积算法进一步提高了安全推断的效率。结合使用,这三个优化被证明对在CHEXPERT数据集中训练的X射线解释问题非常有效。
translated by 谷歌翻译
在COVID-19大流行期间,在COVID-19诊断的紧急环境中进行的大量成像量导致临床CXR获取的差异很大。在所使用的CXR投影,添加图像注释以及临床图像的旋转程度和旋转程度中可以看到这种变化。图像分析社区试图通过开发自动化的CoVID-19诊断算法来减轻大流行期间过度拉伸放射学部门的负担,该诊断算法是CXR成像的输入。已利用大量公开的CXR数据集来改善CoVID-19诊断的深度学习算法。然而,公开可用数据集中临床可获得的CXR的可变质量可能会对算法性能产生深远的影响。 COVID-19可以通过图像标签等图像上的非动物特征的算法来推断诊断。这些成像快捷方式可能是数据集特定的,并限制了AI系统的概括性。因此,了解和纠正CXR图像中的关键潜在偏差是CXR图像分析之前的重要第一步。在这项研究中,我们提出了一种简单有效的逐步方法,以预处理Covid-19胸部X射线数据集以消除不希望的偏见。我们进行消融研究以显示每个单个步骤的影响。结果表明,使用我们提出的管道可以将基线共证检测算法的精度提高到13%。
translated by 谷歌翻译
人为决策的合作努力实现超出人类或人工智能表现的团队绩效。但是,许多因素都会影响人类团队的成功,包括用户的领域专业知识,AI系统的心理模型,对建议的信任等等。这项工作检查了用户与三种模拟算法模型的互动,所有这些模型都具有相似的精度,但对其真正的正面和真实负率进行了不同的调整。我们的研究检查了在非平凡的血管标签任务中的用户性能,参与者表明给定的血管是流动还是停滞。我们的结果表明,虽然AI-Assistant的建议可以帮助用户决策,但用户相对于AI的基线性能和AI错误类型的补充调整等因素会显着影响整体团队的整体绩效。新手用户有所改善,但不能达到AI的准确性。高度熟练的用户通常能够识别何时应遵循AI建议,并通常保持或提高其性能。与AI相似的准确性水平的表演者在AI建议方面是最大的变化。此外,我们发现用户对AI的性能亲戚的看法也对给出AI建议时的准确性是否有所提高产生重大影响。这项工作提供了有关与人类协作有关的因素的复杂性的见解,并提供了有关如何开发以人为中心的AI算法来补充用户在决策任务中的建议。
translated by 谷歌翻译